Marek Walesiak
ARTICLE

(Polish) PDF

ABSTRACT

In multidimensional scaling carried out on the basis of metric data matrix (interval, ratio) one of the stages is the choice of the variable normalization method. The R package clusterSim with data.Normalization function has been developed for that purpose. It provides 18 data normalization methods.
In this paper the proposal of procedure which allows to isolate groups of normalization methods that lead to similar multidimensional scaling results were presented. The proposal can reduce the problem of choosing the normalization method in multidimensional scaling. The results are illustrated via empirical example.

KEYWORDS

normalization of variables, multidimensional scaling, distance measures, R program, clusterSim package

REFERENCES

Borg I., Groenen P. J. F., (2005), Modern Multidimensional Scaling. Theory and Applications, 2nd Edition, Springer Science+Business Media, New York.

Bray J. R., Curtis J. T., (1957), An Ordination of the Upland Forest Communities of Southern Wisconsin, Ecological Monographs, 27 (4), 325–349.

Charrad M., Ghazzali N., Boiteau V., Niknafs A., (2014), NbClust: An R Package for Determining the Relevant Number of Clusters in a Data Set, Journal of Statistical Software, 61 (6), 2–36.

Charrad M., Ghazzali N., Boiteau V., Niknafs A., (2015), NbClust Package for Determining the Best Number of Clusters. R Package Version 3.0, URL http://CRAN.R-project.org/package=NbClust.

Cormack R. R., (1971), A Review of Classification, Journal of the Royal Statistical Society, Series A, 134 (3), 321–367.

Everitt B. S., Landau S., Leese M., Stahl D., (2011), Cluster Analysis, John Wiley & Sons, Chichester.

Gordon A. D., (1999), Classification, 2nd Edition, Chapman & Hall/CRC, London.

Grabiński T., (1984), Wielowymiarowa analiza porównawcza w badaniach dynamiki zjawisk ekonomicznych, Zeszyty Naukowe Akademii Ekonomicznej w Krakowie, Seria specjalna: Monografie nr 61.

Gryszel P., Walesiak M., (2014), Zastosowanie uogólnionej miary odległości GDM w ocenie atrakcyjności turystycznej powiatów Dolnego Śląska, Folia Turistica, 31, 127–147.

Jajuga K., Walesiak M., (2000), Standardisation of Data Set under Different Measurement Scales, w: Decker R., Gaul W., (red.), Classification and Information Processing at the Turn of the Millennium, 105–112. Springer-Verlag, Berlin, Heidelberg.

Jajuga K., Walesiak M., Bąk A., (2003), On the General Distance Measure, w: Schwaiger M., Opitz O., (red.), Exploratory Data Analysis in Empirical Research, 104-109, Springer-Verlag, Berlin, Heidelberg.

Kukuła K., Luty L., (2015), Propozycja procedury wspomagającej wybór metody porządkowania liniowego, Przegląd Statystyczny, 62 (2), 219–231.

Lance G. N., Williams W. T., (1966), Computer Programs for Hierarchical Polythetic Classification (“Similarity Analyses”), The Computer Journal, 9 (1), 60–64.

Mair P., De Leeuw J., Borg I., Groenen P. J. F., (2015), smacof: Multidimensional Scaling. R Package Version 1.7-0, URL http://CRAN.R-project.org/package=smacof.

Milligan G. W., Cooper M. C., (1988), A Study of Standardization of Variables in Cluster Analysis, Journalof Classification, 5 (2), 181–204.

Pawełek B., (2008), Metody normalizacji zmiennych w badaniach porównawczych złożonych zjawisk ekonomicznych, Wydawnictwo Uniwersytetu Ekonomicznego w Krakowie, Kraków.

R Development Core Team (2015), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, URL http://www.R-project.org.

Schaffer C. M., Green P. E., (1996), An Empirical Comparison of Variable Standardization Methods in Cluster Analysis, Multivariate Behavioral Research, 31 (2), 149–167.

Stevens S. S., (1946), On the Theory of Scales of Measurement, Science, 103 (2684), 677–680.

Walesiak M., (2002), Uogólniona miara odległości w statystycznej analizie wielowymiarowej, Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław.

Walesiak M., (2011), Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem programu R, Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, Wrocław.

Walesiak M., (2014), Przegląd formuł normalizacji wartości zmiennych oraz ich własności w statystycznej analizie wielowymiarowej, Przegląd Statystyczny, 61 (4), 363–372.

Walesiak M., (2015), The Results of Linear Ordering of the Set of Objects via Synthetic Measures and the Choice of Normalization Formula, Statistics in Transition – new series, w recenzji.

Walesiak M., Dudek A., (2015), clusterSim: Searching for Optimal Clustering Procedure for a Data Set. R package version 0.44-2, URL http://CRAN.R-project.org/package=clusterSim.

Walesiak M., Dudek A., (2016), The Choice of Variable Normalization Method in Cluster Analysis with clusterSim Package and R Environment, w przygotowaniu.

Zaborski A., (2001), Skalowanie wielowymiarowe w badaniach marketingowych, Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław.

Zeliaś A., (2002), Some Notes on the Selection of Normalisation of Diagnostic Variables, Statistics in Transition, 5 (5), 787–802.

Back to top
© 2019–2022 Copyright by Statistics Poland, some rights reserved. Creative Commons Attribution-ShareAlike 4.0 International Public License (CC BY-SA 4.0) Creative Commons — Attribution-ShareAlike 4.0 International — CC BY-SA 4.0